6.3 Caduceus & PlantCaduceus - DNA 서열의 상보적 등변성 및 단일 세포 분석(SC-MAMBA2)

6.3 Caduceus & PlantCaduceus - DNA 서열의 상보적 등변성 및 단일 세포 분석(SC-MAMBA2)

1. 서론: 유전체학에서의 계산적 병목과 아키텍처의 전환

생명 정보학(Bioinformatics)과 계산 생물학(Computational Biology)의 최전선에서, 거대 언어 모델(Large Language Models, LLMs)의 패러다임은 유전체 데이터의 근본적인 이해 방식을 재정의하고 있다. DNA, RNA, 단백질 서열을 ’생명의 언어’로 간주하고 자연어 처리(NLP) 기법을 적용하려는 시도는 이미 DNABERT나 Nucleotide Transformer와 같은 트랜스포머(Transformer) 기반 모델들을 통해 그 유용성을 입증하였다. 그러나 이러한 초기 성공에도 불구하고, 트랜스포머 아키텍처가 지닌 고유의 계산적 한계—특히 서열 길이에 대한 2차 복잡도(O(N^2))—는 수십억 염기쌍(Base Pairs, bp)에 달하는 진핵생물의 유전체를 온전히 모델링하는 데 있어 결정적인 장벽으로 작용해왔다.

유전체 데이터는 자연어 텍스트와는 본질적으로 다른 구조적, 생물리학적 특성을 내포한다. 인간 유전체와 같은 고등 생물의 DNA는 선형적인 정보의 나열이 아니다. 이는 3차원 공간 상에서 히스톤 단백질을 감싸며 복잡하게 접혀 있고, 수백만 염기 떨어져 있는 원거리 조절 인자(Distal Regulatory Elements)들이 상호작용하며 유전자 발현을 제어한다. 또한, DNA는 이중 나선(Double Helix) 구조로서, 5’에서 3’ 방향의 가닥(Forward Strand)과 그에 상보적인 역방향 가닥(Reverse Complement Strand)이 물리적으로 결합하여 단일한 정보 객체를 형성한다. 이러한 **역상보성(Reverse Complementarity, RC)**은 단순한 데이터의 중복이 아닌, 생물학적 정보 보존의 핵심 메커니즘이다.

이러한 맥락에서 등장한 맘바(Mamba) 아키텍처와 이를 위시한 선택적 상태 공간 모델(Selective State Space Models, SSM)은 유전체학의 난제들을 해결할 수 있는 새로운 돌파구로 주목받고 있다. 본 장에서는 Mamba 아키텍처를 유전체 특성에 맞게 확장하여 DNA 서열의 양방향성과 상보적 대칭성을 구조적으로 내재화한 Caduceus, 이를 식물 유전체의 방대한 진화 역사와 반복 서열 처리에 적용한 PlantCaduceus, 그리고 단일 세포 전사체(Single-Cell Transcriptomics) 데이터의 초장거리 처리를 위해 Mamba-2 아키텍처를 도입한 SC-MAMBA2에 대해 심층적으로 논의한다. 이들은 단순한 모델의 적용을 넘어, 생물학적 도메인 지식(Domain Knowledge)을 딥러닝 모델의 귀납적 편향(Inductive Bias)으로 통합하려는 시도이며, 포스트 트랜스포머 시대의 유전체학이 나아가야 할 방향을 제시한다.1

2. Caduceus: 생물학적 대칭성의 구조적 내재화

Caduceus는 Mamba 아키텍처를 기반으로 하여 DNA 서열 모델링을 위해 특별히 설계된 최초의 역상보 등변성(RC-Equivariant) 양방향(Bi-directional) 언어 모델이다. 기존의 유전체 모델들이 DNA 서열을 단순한 문자열로 취급하여 S와 그 역상보 서열 RC(S)를 서로 다른 데이터로 학습시켰다면, Caduceus는 이 둘이 본질적으로 동일한 정보를 담고 있다는 생물학적 사실을 모델의 수리적 구조 안에 강제한다. 이는 데이터 효율성을 극대화할 뿐만 아니라, 모델이 학습하지 않은 데이터에 대해서도 생물학적으로 타당한 예측을 내놓도록 보장한다.1

2.1 유전체 모델링의 핵심 난제: 장거리 의존성과 대칭성

DNA 서열 모델링이 직면한 첫 번째 도전은 **초장거리 의존성(Long-range Dependency)**이다. 인핸서(Enhancer)와 프로모터(Promoter) 간의 상호작용은 유전자 발현 조절의 핵심이지만, 이들은 유전체 상에서 수십만에서 수백만 염기까지 떨어져 있을 수 있다. 기존의 CNN(Convolutional Neural Network) 기반 모델인 Enformer 등은 수용 영역(Receptive Field)을 넓히기 위해 고군분투했으나, 트랜스포머의 어텐션 메커니즘은 메모리 한계로 인해 이러한 길이를 처리하는 데 실패해왔다.

두 번째 도전은 **역상보 대칭성(RC Symmetry)**이다. 이중 나선 구조에서 한쪽 가닥의 서열이 결정되면 반대쪽 가닥의 서열은 결정론적으로(A↔T, C↔G) 정해진다. 생물학적 분석(Assay)에서는 DNA 조각의 방향성을 미리 알 수 없는 경우가 많아 두 가닥 중 어느 쪽이 시퀀싱될지 확률적이다. 따라서 이상적인 모델은 어떤 가닥이 입력되든 일관된 표현(Representation)을 생성해야 한다. 이를 **등변성(Equivariance)**이라 하며, 입력의 변환이 출력의 예측 가능한 변환으로 이어지는 성질을 의미한다.

Caduceus는 이러한 문제들을 해결하기 위해 Mamba 블록을 확장한 두 가지 핵심 컴포넌트, BiMambaMambaDNA를 도입하였다.

2.2 BiMamba: 파라미터 공유를 통한 효율적 양방향성

기본적으로 SSM과 Mamba는 순환 신경망(RNN)과 유사하게 시퀀스를 순차적으로 처리하는 인과적(Causal) 모델이다. 그러나 유전체 정보는 텍스트와 달리 시간의 흐름이 아닌 공간적 구조를 가지므로, 특정 위치의 염기는 상류(Upstream)와 하류(Downstream)의 문맥 정보를 모두 필요로 한다.

Caduceus는 이를 위해 전방향(Forward) Mamba 레이어와 후방향(Backward) Mamba 레이어를 결합한 BiMamba 블록을 설계하였다. 여기서 주목할 점은 단순한 양방향 결합이 아니라, 가중치 공유(Weight Sharing) 전략을 선택적으로 사용할 수 있다는 점이다. DNA의 통계적 성질은 방향에 따라 크게 달라지지 않으므로, 전방향 처리와 후방향 처리에 동일한 파라미터를 사용하는 것이 가능하다. 이는 모델의 파라미터 수를 절반으로 줄이면서도 동일한 깊이(Depth)를 유지하게 하여, 제한된 메모리 내에서 더 깊고 강력한 모델을 구축할 수 있게 한다. 연구 결과에 따르면, 가중치 공유를 적용한 BiMamba는 그렇지 않은 모델에 비해 사전 학습(Pre-training) 단계에서 더 낮은 손실(Loss) 값을 기록하며 학습 효율성을 입증하였다.5

2.3 MambaDNA: 역상보 등변성의 수학적 구현

Caduceus의 가장 혁신적인 기여는 MambaDNA 블록을 통한 역상보 등변성의 구현이다. 이는 데이터 증강(Data Augmentation)과 같은 외부적 기법에 의존하지 않고, 모델의 연산 과정 자체가 RC 대칭성을 보존하도록 설계된 것이다.

수학적으로, 입력 서열 X \in \mathbb{R}^{L \times D}와 그 역상보 변환 RC(X)에 대해, 모델 함수 f가 다음의 조건을 만족할 때 RC 등변적이라 한다:
f(RC(X)) = RC'(f(X))
여기서 RC'는 특징 공간(Feature Space) 또는 출력 공간에서의 역상보 변환을 의미한다.

Caduceus는 이를 구현하기 위해 다음과 같은 전략을 사용한다:

  1. 입력 차원의 확장: DNA 서열을 원본 가닥과 역상보 가닥으로 복제하여 채널 차원으로 확장하거나, 두 가닥을 하나의 배치(Batch) 내에서 짝지어 처리한다.
  2. 연산의 대칭성 강제: Mamba 블록 내부의 선형 변환(Linear Projection)과 상태 공간 업데이트(State Space Update) 과정에서, 원본 가닥에 적용되는 가중치 W와 역상보 가닥에 적용되는 가중치 사이에 W_{RC} 제약 조건을 둔다. 구체적으로, MambaDNA는 입력 x_t와 역상보 입력 RC(x_t)를 동시에 처리하며, 이들 간의 정보가 레이어 내부에서 대칭적으로 혼합되거나 독립적으로 유지되면서 최종 출력단에서 결합(Pooling)되도록 한다.

이러한 구조적 제약은 모델이 S라는 서열 하나만 보더라도 RC(S)에 대한 정보를 동시에 학습하는 효과를 낳는다. 이는 학습 데이터의 양이 제한적일 때 특히 강력한 위력을 발휘하며, 모델이 생물학적으로 불가능한 패턴을 학습하는 것을 원천적으로 차단한다.1

2.4 이산화(Discretization) 및 학습 동역학

Mamba 및 Caduceus의 핵심은 연속적인 시간(Continuous-time) 시스템을 이산적인 데이터(Discrete Data) 처리에 맞게 변환하는 이산화(Discretization) 과정에 있다. Caduceus는 Zero-order hold (ZOH) 방식을 채택하여 연속 파라미터 A, B를 이산 파라미터 \bar{A}, \bar{B}로 변환한다.
h_{t+1} = \bar{A}h_t + \bar{B}x_t

y_t = C h_t + D x_t

여기서 이산화 수식은 다음과 같다:
\bar{A} = \exp(\Delta A)

\bar{B} = (\Delta A)^{-1}(\exp(\Delta A) - I) \cdot \Delta B

\Delta는 시간 스케일(Time-scale) 파라미터로, 입력 신호의 샘플링 속도나 정보의 해상도를 조절하는 역할을 한다. Caduceus에서 이 \Delta는 학습 가능한 파라미터로 설정되어, 모델이 유전체 서열 내의 다양한 길이 스케일(Motif 수준의 국소적 패턴부터 Chromosome 수준의 거시적 패턴까지)을 동적으로 학습할 수 있게 한다. 이는 고정된 윈도우 크기를 가진 CNN이나 고정된 어텐션 스팬을 가진 트랜스포머와 차별화되는 SSM만의 강점이다.5

2.5 실험적 성능 및 벤치마크

Caduceus는 인간 참조 유전체(hg38)를 사용하여 사전 학습되었으며, 131,072 bp (131k)라는 긴 컨텍스트 윈도우를 가진다. 이는 HyenaDNA가 달성한 1M bp에는 미치지 못하지만, 생물학적으로 유의미한 정보를 추출하는 능력에서는 훨씬 뛰어난 성능을 보인다.

2.5.1 장거리 변이 효과 예측(Long-range Variant Effect Prediction)

Caduceus의 성능이 극적으로 드러나는 분야는 변이 효과 예측(VEP)이다. 특히 유전자 발현량에 영향을 미치는 조절 변이(Regulatory Variant)가 유전자로부터 멀리 떨어져 있는 경우, 기존 모델들은 맥락을 파악하지 못해 예측에 실패하곤 했다.

Avsec 등(2021)이 구축한 장거리 유전자 발현 예측 데이터셋을 활용한 벤치마크에서, Caduceus는 파라미터 수가 10배 이상 많은 **Nucleotide Transformer(500M parameters)**나 100만 bp 컨텍스트를 가진 HyenaDNA를 압도하는 성능을 보였다. 특히 전사 시작점(TSS)과의 거리가 멀어질수록 타 모델들의 성능은 급격히 하락하는 반면, Caduceus는 높은 정확도를 유지했다. 이는 BiMamba가 제공하는 양방향 문맥 이해와 MambaDNA가 제공하는 구조적 등변성이 결합되어, 노이즈 속에서 미세한 신호를 포착하는 데 탁월함을 증명한다.1

2.5.2 다운스트림 태스크 비교

Nucleotide Transformer 벤치마크의 18개 과제 중 8개에서 Caduceus는 어텐션 기반 모델들을 제치고 최고 성능(SOTA)을 기록했다. 특히 히스톤 마커(Histone Marker) 예측이나 조절 요소 주석(Regulatory Annotation)과 같이 서열의 문법과 구조적 특징을 동시에 파악해야 하는 과제에서 두각을 나타냈다. 반면, HyenaDNA는 스플라이스 사이트(Splice Site) 예측과 같은 일부 국소적 패턴 인식에서는 강점을 보였으나, 전반적인 유전체 이해도에서는 Caduceus에 미치지 못했다.6

3. PlantCaduceus: 식물 유전체의 진화적 시공간 모델링

PlantCaduceus는 Caduceus의 아키텍처적 혁신을 식물 유전체학(Plant Genomics)이라는 더욱 도전적인 도메인으로 확장한 모델이다. 식물 유전체는 인간 유전체와 비교할 때 몇 가지 독특하고 까다로운 특성을 지니고 있다. 첫째, 유전체 크기가 종에 따라 수십 배까지 차이가 나며 거대하다. 둘째, 배수성(Polyploidy)이 흔하여 유전 정보의 중복도가 높다. 셋째, 트랜스포존(Transposon)과 같은 반복 서열(Repetitive Sequence)이 유전체의 80% 이상을 차지하기도 한다. PlantCaduceus는 이러한 특성을 고려하여 설계되었으며, 1억 6천만 년의 진화 역사를 아우르는 16종의 피자식물(Angiosperm) 유전체를 학습하였다.11

3.1 데이터 큐레이션 전략: 반복 서열과의 전쟁

기존의 범용 DNA 모델들이 무작위로 샘플링된 유전체 조각을 학습했다면, PlantCaduceus는 식물 유전체의 특수성을 감안한 정교한 데이터 큐레이션 전략을 채택하였다. 반복 서열은 언어 모델 학습에 있어 양날의 검이다. 너무 많으면 모델이 단순한 반복 패턴(예: AAAAA…)을 예측하는 데 과적합되어, 실제 생물학적 기능을 수행하는 복잡한 서열 패턴을 학습하지 못하게 된다.

이를 극복하기 위해 PlantCaduceus 연구팀은 다음과 같은 전략을 도입하였다:

  1. 반복 서열 가중치 감소(Down-weighting): 손실 함수(Loss Function) 계산 시, 반복 서열 영역에서 발생하는 예측 오차에 낮은 가중치를 부여한다. 이는 모델이 반복되지 않는 고유한 서열(Unique Sequence) 영역—주로 유전자와 핵심 조절 인자가 위치한 곳—에 집중하도록 유도한다.
  2. 비코딩 영역 다운샘플링(Down-sampling): 식물 유전체의 광대한 비코딩(Non-coding) 영역 중 정보량이 낮은 부분을 선별적으로 제외하여 데이터셋의 밀도를 높였다.
  3. 단일 뉴클레오타이드 토큰화: k-mer 토큰화 방식은 어휘 집합(Vocabulary)의 크기를 키우고 미세한 변이(SNP)의 영향을 희석시킬 위험이 있다. PlantCaduceus는 단일 염기(Single Nucleotide) 단위의 토큰화를 고수하여, 염기 하나하나의 치환이 모델의 임베딩에 즉각적으로 반영되도록 하였다. 이는 정밀 농업이나 육종에서 중요한 단일 염기 다형성(SNP) 분석에 유리하다.14

3.2 1억 6천만 년을 뛰어넘는 전이 학습(Transfer Learning)

PlantCaduceus의 가장 강력한 성능 지표는 종간 전이 학습(Cross-Species Transferability) 능력이다. 생물학 연구에서 모델 생물(Model Organism)인 애기장대(Arabidopsis thaliana)는 데이터가 풍부하지만, 실제 농업적으로 중요한 작물인 옥수수(Maize), 벼(Rice), 밀(Wheat) 등은 정밀하게 주석 달린 데이터(Labeled Data)가 부족한 실정이다.

PlantCaduceus는 애기장대 데이터로 미세 조정(Fine-tuning)된 후, 진화적으로 약 1억 6천만 년 전에 분기된 옥수수 유전체 분석에 적용되었다. 결과는 놀라웠다.

  • 전사/번역 접합 부위 예측: 전사 시작점(TSS), 전사 종결점(TTS), 스플라이싱 기증/수용 부위(Splice Donor/Acceptor) 예측에서 PlantCaduceus는 기존 최고 성능의 DNA 모델 대비 1.45배에서 최대 7.23배 향상된 정확도를 보였다.
  • 해석: 이는 모델이 단순히 애기장대의 서열 패턴을 암기한 것이 아니라, 식물계 전체를 관통하는 보존된 ’생물학적 문법(Biological Grammar)’을 학습했음을 시사한다. DNA의 물리화학적 구조와 진화적 압력이 만들어낸 공통적인 규칙성을 Mamba 아키텍처가 효과적으로 포착한 것이다.12

3.3 사례 연구: Sweet Corn의 Su1 유전자와 육종(Breeding) 응용

PlantCaduceus의 실용성은 실제 농업 형질과 연관된 인과적 변이(Causal Variant)를 찾아내는 능력에서 증명된다. 연구팀은 스위트 콘(Sweet Corn)의 특성인 높은 당도와 크림 같은 질감을 결정하는 sugary1 (Su1) 유전자좌를 분석하였다.

수많은 변이 중에서 PlantCaduceus는 W578R이라는 특정 아미노산 치환을 일으키는 돌연변이에 대해 매우 높은 ’기능적 영향 점수’를 부여하였다. 실제로 이 변이는 전분 대사 효소의 기능을 망가뜨려 옥수수 알곡 내에 전분 대신 피토글리코겐(Phytoglycogen)과 당분이 축적되게 만드는 핵심 원인이다. 중요한 점은 PlantCaduceus가 다중 서열 정렬(MSA)과 같은 외부 정보 없이, 오직 단일 서열의 문맥(Context)만으로 이 변이의 중요성을 파악했다는 것이다.

또한, PlantCaduceus가 ’해롭다(Deleterious)’고 예측한 변이들은 실제 자연계 집단에서 매우 낮은 빈도(Minor Allele Frequency)로 관찰되었다. 이는 자연선택(Natural Selection)에 의해 제거되고 있는 유해 변이들을 모델이 정확히 식별하고 있음을 의미하며, 이를 이용해 작물 육종 시 유해 유전자를 제거하고 우수 형질을 고정하는 유전체 선택(Genomic Selection) 기술의 정밀도를 획기적으로 높일 수 있음을 시사한다.17

3.4 모델 확장성 및 구조

PlantCaduceus는 다양한 파라미터 크기(20M, 40M, 112M, 225M)로 학습되었으며, 가장 큰 모델은 32개 레이어와 1024 히든 사이즈를 가진다. 입력 윈도우는 512bp로 설정되었으나, Mamba의 특성상 추론 시에는 더 긴 시퀀스로 확장 가능하다. 특히 Sorghum(수수) 유전체 분석에서 UMAP 시각화를 통해 코딩 영역과 비코딩 영역을 명확히 구분하는 클러스터링 능력을 보여주었는데, 이는 지도 학습(Supervised Learning) 없이도 유전체의 기능적 구조를 스스로 파악했음을 보여준다.15

4. SC-MAMBA2: 단일 세포 전사체와 상태 공간 이원성(SSD)

유전체(Genome)가 생명의 설계도라면, 전사체(Transcriptome)는 그 설계도가 특정 시점, 특정 세포에서 실현된 결과물이다. 단일 세포 RNA 시퀀싱(scRNA-seq) 기술의 발달로 우리는 개별 세포 단위에서 수만 개의 유전자 발현량을 측정할 수 있게 되었다. 그러나 데이터의 성격은 **’서열(Sequence)’에서 ‘집합(Set)’**으로, 그리고 **’장거리(Long-range)’에서 ‘초장거리(Ultra-long)’**의 문제로 변화한다. SC-MAMBA2는 이러한 단일 세포 데이터의 특성에 최적화하기 위해 최신 Mamba-2 아키텍처를 도입한 파운데이션 모델이다.3

4.1 단일 세포 데이터의 본질적 난제: 서열이 아닌 집합

scRNA-seq 데이터는 본질적으로 순서가 없는 유전자와 그 발현량의 집합이다. 그러나 scGPT와 같은 기존 모델들은 이를 처리하기 위해 유전자들을 임의의 순서로 나열하여 마치 문장처럼 만들고 트랜스포머를 적용했다. 이 과정에서 발생하는 문제는 두 가지다.

  1. 계산 복잡도: 세포 하나당 20,000개 이상의 유전자가 존재한다. 트랜스포머의 O(N^2) 복잡도로는 이 모든 유전자를 처리할 수 없어, 변동성이 높은(Highly Variable) 수천 개의 유전자만 선별하여 사용해야 했다. 이는 정보의 손실을 의미한다.
  2. 순서 편향(Order Bias): 유전자의 나열 순서는 생물학적 의미가 없으나, 모델은 순서에 따른 허위 상관관계(Spurious Correlation)를 학습할 위험이 있다.

SC-MAMBA2는 이러한 문제를 상태 공간 이원성(State Space Duality, SSD) 기반의 Mamba-2 아키텍처와 **양방향 처리(Bidirectional Processing)**를 통해 해결한다.

4.2 Mamba-2와 상태 공간 이원성(SSD)

Mamba-2는 기존 Mamba(SSM)의 선형 시불변(LTI) 시스템을 행렬 곱셈 형태로 재해석한 구조다. SSD 이론에 따르면, SSM의 순차적(Recurrent) 연산과 트랜스포머의 어텐션(Attention) 연산은 수학적으로 쌍대(Dual) 관계에 있다. Mamba-2는 구조화된 마스킹(Structured Masking)을 통해 어텐션의 O(N^2) 비용을 피하면서도 어텐션과 유사한 전역적 정보 통합 능력을 갖춘다.

이러한 SSD 아키텍처의 도입은 SC-MAMBA2에게 두 가지 결정적인 이점을 제공한다:

  • 텐서 코어(Tensor Core) 활용 극대화: GPU 하드웨어에 최적화된 행렬 연산을 통해 학습 및 추론 속도를 비약적으로 향상시킨다.
  • 초장거리 시퀀스 처리: 메모리 효율성을 바탕으로, 유전자 선별 과정 없이 60,530개에 달하는 전장 유전체(Whole Transcriptome) 시퀀스를 한 번에 입력받아 처리할 수 있다. 이는 단일 세포 모델링 역사상 가장 긴 컨텍스트 길이이며, 희귀 유전자의 미세한 발현 패턴까지 놓치지 않고 분석할 수 있게 한다.3

4.3 토큰화 및 양방향 모델링 전략

SC-MAMBA2는 입력 데이터를 다음과 같이 처리한다:

  1. 토큰화(Tokenization): 각 유전자는 ’유전자 ID 임베딩’과 ’발현량(Expression Value) 임베딩’의 합으로 표현된다. 발현량은 상대적 크기에 따라 구간화(Binning)되어 임베딩된다.
  2. 패치 기반 처리: 6만 개의 유전자를 효율적으로 처리하기 위해, 인접한 유전자 토큰들을 그룹화하여 패치(Patch) 단위로 처리하거나, ’스마트 패딩(Smart Padding)’을 통해 유의미한 정보만을 압축한다.
  3. 양방향 Mamba 블록: 유전자 집합의 비순차적 특성을 반영하기 위해, SC-MAMBA2는 입력 시퀀스를 정방향과 역방향으로 각각 처리하는 양방향 블록을 사용한다.
  • 입력 시퀀스 C_i를 복제하여 역순으로 뒤집은 Flip(C_i)를 생성한다.
  • 정방향 Mamba와 역방향 Mamba가 각각의 시퀀스를 처리하되, 가중치를 공유(Weight Sharing)하여 파라미터 효율성을 높인다.
  • 두 출력 결과를 합산하여 최종적인 세포 임베딩을 생성한다. 이 과정은 모델이 입력된 유전자의 순서에 의존하지 않고, 유전자 간의 공발현(Co-expression) 관계망을 전역적으로 학습하도록 유도한다.3

4.4 성능 평가 및 멀티오믹스 통합

SC-MAMBA2는 CELLxGENE 데이터베이스에서 수집한 약 5,700만 개의 세포 데이터로 사전 학습되었다. 이는 scGPT(3,300만 개)를 넘어서는 최대 규모이다.

4.4.1 벤치마크 결과

  • 세포 타입 주석(Cell Type Annotation): 미세 조정 실험에서 SC-MAMBA2는 scGPT, scVi, CellPLM 등 기존 SOTA 모델들을 모든 지표(Accuracy, F1-score)에서 능가하였다. 특히 학습 데이터에 존재하지 않았던 새로운 세포 타입(Novel Cell Type)을 식별하거나, 배치 효과가 심한 이질적인 데이터셋을 통합하는 데 있어 탁월한 성능을 보였다.
  • 멀티오믹스 통합(Multi-omics Integration): scRNA-seq 데이터와 scATAC-seq(Chromatin Accessibility) 데이터를 통합하는 과제에서, SC-MAMBA2는 이종 데이터 간의 정렬(Alignment) 능력을 입증했다. scATAC-seq 데이터를 ’유전자 활성 점수(Gene Activity Score)’로 변환하여 입력했을 때, 모델은 전사체 데이터와의 잠재 공간(Latent Space)을 효과적으로 일치시켰으며, 이는 세포의 생물학적 상태를 다각도에서 조명할 수 있게 한다.3

4.4.2 계산 효율성

1억 5천만 개의 파라미터를 가진 거대 모델임에도 불구하고, SSM 특유의 선형 복잡도 덕분에 추론 속도와 메모리 점유율 면에서 트랜스포머 기반 모델보다 우수한 효율을 기록했다. 이는 향후 수억, 수십억 개의 세포 데이터를 다루게 될 단일 세포 아틀라스(Single Cell Atlas) 프로젝트에서 SC-MAMBA2가 표준 모델로 자리 잡을 가능성을 보여준다.22

5. 결론: 유전체 파운데이션 모델의 새로운 표준

Caduceus, PlantCaduceus, 그리고 SC-MAMBA2로 이어지는 일련의 연구들은 ‘포스트 트랜스포머’ 시대가 유전체학에서 어떻게 구체화되고 있는지를 명확히 보여준다. 이들 모델의 성공은 단순히 최신 아키텍처를 적용한 결과가 아니다. 핵심은 도메인 특화 지식(Domain Knowledge)을 모델의 구조적 편향(Inductive Bias)으로 녹여냈다는 점에 있다.

  1. 구조적 정합성: Caduceus는 DNA의 이중 나선 구조와 역상보성을 등변성(Equivariance)이라는 수학적 제약으로 모델에 내재화하였다.
  2. 진화적 맥락: PlantCaduceus는 반복 서열이 지배하는 식물 유전체의 특성을 고려한 데이터 큐레이션과 학습 전략을 통해, 억겁의 진화 시간을 뛰어넘는 일반화 능력을 확보하였다.
  3. 데이터의 본질: SC-MAMBA2는 집합(Set) 형태의 단일 세포 데이터를 처리하기 위해 초장거리 시퀀스 모델링과 양방향성을 결합하여, 유전자 선별 없는 전장 유전체 분석의 길을 열었다.

표 6.3.1은 본 장에서 논의한 세 가지 주요 모델의 특성을 요약하여 보여준다. 트랜스포머가 자연어 처리의 혁명을 이끌었다면, Mamba와 상태 공간 모델은 그 바통을 이어받아 생명의 언어를 해독하는 가장 강력한 도구로 자리매김하고 있다. 앞으로의 유전체학은 이러한 효율적인 아키텍처를 바탕으로, 단순한 서열 분석을 넘어 세포의 동적인 상태 변화와 유전형-표현형 간의 복잡한 인과 관계를 규명하는 방향으로 나아갈 것이다.

5.1 표 6.3.1 주요 DNA 및 단일세포 Mamba 기반 모델 비교

모델명기반 아키텍처핵심 특징주요 적용 분야처리 길이 (Context)학습 데이터
CaduceusMamba (BiMamba, MambaDNA)역상보(RC) 등변성, 양방향 가중치 공유, ZOH 이산화인간 유전체 변이 예측(VEP), 원거리 조절 인자 분석131,072 bp (DNA)Human Reference Genome (hg38)
PlantCaduceusCaduceus (Mamba 기반)반복 서열 가중치 감소, 종간 전이 학습(Transfer Learning)작물 육종(Breeding), 유해 변이 예측, 유전자 주석512 bp Windowed (확장 가능)16종 피자식물 (Angiosperms)
SC-MAMBA2Mamba-2 (SSD)상태 공간 이원성(SSD), 초장거리 시퀀스, 패치 토큰화단일 세포 전사체 통합, 세포 타입 분류, 멀티오믹스~60,530 Genes (Set sequence)57M Single Cells (CELLxGENE)

1

6. 참고 자료

  1. Caduceus: Bi-Directional Equivariant Long-Range DNA Sequence …, https://arxiv.org/abs/2403.03234
  2. Bi-Directional Equivariant Long-Range DNA Sequence Modeling, https://huggingface.co/papers/2403.03234
  3. SC-MAMBA2: Leveraging State-Space Models for Efficient Single …, https://www.biorxiv.org/content/10.1101/2024.09.30.615775v1.full-text
  4. Gene42 - : Long-Range Genomic Foundation Model With Dense …, https://arxiv.org/pdf/2503.16565
  5. Caduceus: Bi-Directional Equivariant Long-Range DNA Sequence …, https://arxiv.org/pdf/2403.03234
  6. Caduceus project page, https://caduceus-dna.github.io/
  7. Bi-Directional Equivariant Long-Range DNA Sequence Modeling, https://pmc.ncbi.nlm.nih.gov/articles/PMC12189541/
  8. A Novel Mamba Architecture with a Semantic Transformer for … - MDPI, https://www.mdpi.com/2072-4292/16/14/2620
  9. 12월 25, 2025에 액세스, [https://pmc.ncbi.nlm.nih.gov/articles/PMC12189541/#::text=Caduceus%20models%20outperform%20a%20similarly,better%20on%20splice%20site%20annotation.](https://pmc.ncbi.nlm.nih.gov/articles/PMC12189541/#::text=Caduceus models outperform a similarly, https://pmc.ncbi.nlm.nih.gov/articles/PMC12189541/#:~:text=Caduceus%20models%20outperform%20a%20similarly,better%20on%20splice%20site%20annotation.
  10. Benchmarking DNA foundation models for genomic and genetic tasks, https://pmc.ncbi.nlm.nih.gov/articles/PMC12663285/
  11. 12월 25, 2025에 액세스, [https://www.maizegenetics.net/plantcad#::text=PlantCaduceus%2C%20abbreviated%20as%20PlantCAD%2C%20is,a%20masked%20language%20modeling%20objective.](https://www.maizegenetics.net/plantcad#::text=PlantCaduceus%2C abbreviated as PlantCAD%2C is, https://www.maizegenetics.net/plantcad#:~:text=PlantCaduceus%2C%20abbreviated%20as%20PlantCAD%2C%20is,a%20masked%20language%20modeling%20objective.
  12. Cross-species modeling of plant genomes at single-nucleotide …, https://www.pnas.org/doi/10.1073/pnas.2421738122
  13. (PDF) Cross-species plant genomes modeling at single nucleotide …, https://www.researchgate.net/publication/381346124_Cross-species_plant_genomes_modeling_at_single_nucleotide_resolution_using_a_pre-trained_DNA_language_model
  14. Cross-species modeling of plant genomes at single … - bioRxiv, https://www.biorxiv.org/content/10.1101/2024.06.04.596709v2.full.pdf
  15. Cross-species modeling of plant genomes at single nucleotide …, https://pmc.ncbi.nlm.nih.gov/articles/PMC11185591/
  16. Cross-species modeling of plant genomes at single … - PNAS, https://www.pnas.org/doi/abs/10.1073/pnas.2421738122
  17. Maize Genetics | PlantCad - Buckler Lab, https://www.maizegenetics.net/plantcad
  18. Plant, Soil and Nutrition Research - Publication : USDA ARS, https://www.ars.usda.gov/research/publications/publication/?seqNo115=417822
  19. Sparse Mamba: Introducing Controllability, Observability, And … - arXiv, https://arxiv.org/html/2409.00563v3
  20. State Space Duality (Mamba-2) Part I - The Model | Tri Dao, https://tridao.me/blog/2024/mamba2-part1-model/
  21. scMamba: A Scalable Foundation Model for Single-Cell Multi-Omics …, https://arxiv.org/html/2506.20697v1
  22. SC-MAMBA2: LEVERAGING STATE-SPACE MODELS FOR - bioRxiv, https://www.biorxiv.org/content/10.1101/2024.09.30.615775v1.full.pdf
  23. SC-MAMBA2: Leveraging State-Space Models for Efficient Single …, https://www.researchgate.net/publication/384543878_SC-MAMBA2_Leveraging_State-Space_Models_for_Efficient_Single-Cell_Ultra-Long_Transcriptome_Modeling